彼得·霍莫基等｜大型语言模型及其在法律中的可能用途

Original 彼得·霍莫基等上海市法学会东方法学

2024-10-09

大型语言模型是自然语言处理领域一组成功的工具集合，能够捕捉人类自然语言的统计性表征进行概率性计算，并由此生成人类提问的相应回答。ChatGPT的出现使公众认识到大型语言模型在法律领域的潜在用途，如检索、生成和分析法律文本。除了直接法律业务，大型语言模型在拓展法律人工作范围和其他工具使用可能性方面也可能发挥作用。对小型律师事务所的定制版GPT所做的实验测试显示，大型语言模型在理论上可以帮助更广泛的受众更容易获得法律支持，但目前存在规模限制、语言差异、平台垄断、数据壁垒等实际障碍。因此，人们应当以一种谨慎乐观的态度来看待人工智能技术与法律服务之间的潜在交叉点。

本文试图回答如何将与ChatGPT类似的计算机程序应用于法律领域，具体而言，也就是如何运用它们从而改善法律的获取和访问。这些类似于ChatGPT的计算机程序建立在大型语言模型（Large Language Models，LLMs，或称“大语言模型”）的基础上，不仅能够“理解”人类（自然）文本，而且可以生成相应的应答。由于这些程序系统直到最近才得以向更广泛的公众开放，因此，我们无意于勾勒一个未来的全面愿景，而是根据这些大型语言模型目前的技术能力和局限性，提出它可能具有的一些用途。

一、大型语言模型的技术背景和一般用途

（一）什么是大型语言模型？

大型语言模型是自然语言处理（Natural Language processing，NLP）领域一组非常成功的工具集合，属于人工智能这一广泛领域的一个分支。人工智能虽然还涉及其他领域，譬如机器感知（machine perception）和机器人，但这些领域对法律领域的直接影响较小，所以我们不做讨论。自然语言处理属于科学研究和工程领域，它试图对自然语言的使用进行建模，并解决与生成或“理解”此类文本相关的问题。

作为一种（概率性的）计算模型，语言模型的使用要早于现代电子计算机，它代表了人们如何通过使用自然语言与周围环境进行互动。这些模型可以捕捉人们使用的自然语言的统计性表征，例如特定的声音或词语出现在另一给定的声音、词语或词组之后的可能性。“条件概率”（conditional probability）这统计学概念有助于根据前一序列提供的语境来预测未来的词语。在人类理解语言的过程中，尤其是在嘈杂的环境下，当我们试图听懂一个新的说话者或者学习一门新语言时，我们都会无意识或不自觉地依赖这种概率。这既适用于人类彼此之间的理解，也适用于生成自然和连贯的语言模式。基于语言模型，各种算法已被广泛应用：从生成自然文本到机器翻译、信息检索和情感分析。由于我们掌握的数据量不断增加和计算机性能不断提高，这些语言模型在近年来变得更加有用。

简而言之，这些发展可以归因于以下三个方面：一是普遍使用神经网络（neural networks）和数据驱动（data-driven）或归纳学习（inductive learning）而不是显式编程（explicit programming）的方法；二是使用基于情景化嵌入（contextualised embeddings）的统计学语言模型，作为在给定情景中表示单词的一种精确方式；三是使用特殊的神经网络架构，这些架构在海量数据的训练中表现出惊人的性能。

首先，神经网络（neural networks）作为一种计算概念，与传统计算机的使用方式存在很大区别，后者属于所谓的冯·诺依曼（von Neumann）架构。计算机具有明确的编程规则可循，而神经网络则在优化和训练过程中学习所有的“编程”。传统计算机具有独立的内存和处理单元，而神经网络则由许多独立的、非常相似的处理单元（称为人工神经元）组成，这些处理单元被组织在不同的层中，并根据它们的任务相互连接成网络。当某些神经元接收到有关其输出的反馈时，它们可以调整其运行参数（权重和偏差），直到这些参数在训练中达到最佳状态。这种方法使神经网络能够有效地执行复杂任务，而传统的编程方法根本无法胜任，因为在传统的编程中人类必须把最好的方法固定下来。这也使得神经网络的可解释性低于传统的计算机程序。

神经网络并非以显式编程的方式工作，而是在训练过程中获得优化，因此，给定的神经架构通过训练结果（称为参数，包括权重和偏差）可以有效地执行给定的任务。神经网络本身就是一个包含参数和架构的机器学习“模型”。这种模型可用于执行特定任务，例如文本生成或文本分类，其中程序库向神经网络提供一些输入（文本的数字表示），神经网络以最快的速度生成输出（也称为“预测”）。

让我们回到大型语言模型获得成功的两个原因，第一个原因是情境化嵌入的使用。一言以蔽之，即使在对语言的使用进行建模时，计算机也必须将文字转换成数字。通常情况下，我们通过字符序列将文本转换为数字，即用一个、两个或三个字节代表一个字符。这是一种快速的操作，非常适合主要由人类进行文本处理的情况。但如果我们希望计算机以更复杂的方式处理文本，则最好使用能够区分单词（或单词部分，称为标记“tokens”）含义的文本表示法。这些情境化嵌入作为向量具有诸多维度（例如，每个嵌入有768个或更多值），每一个维度代表每一个标记。不管是所使用的标记列表还是这些标记的嵌入值都是预先训练的结果，即计算文本表示和标记之间连接的最有效方法。尽管这些标记反映了模型训练时使用的大部分语言和文本，但情景化嵌入仍然能够捕捉不同语言中的含义。此外，这些情境化的嵌入还考虑到了相同的词在文本所训练的不同领域中具有不同含义的情况。例如，“discharge”在刑法和破产法中就具有不同的含义，在刑法中表示“释放”，而在破产法中则意味着“清偿债务、撤销”。

至于第二个原因，也就是在海量数据上表现良好的特殊神经网络架构的使用，首先需要强调的是，这些语言模型如何充分利用互联网上的大量文本资源。

如果语言模型的训练只能依靠人类手动创建的大量训练数据集来完成，那么成本将过于高昂。取而代之的是使用自动化训练方法，例如屏蔽文本中的某个单词并预测该被屏蔽的单词可能是什么，或者（在GPT模型的情况下）对模型进行预训练以推测给定句子的正确结尾。这种方法通常被称为一种无监督的语言模型训练。由于能够跟踪输入序列的相关部分且更适合使用情景化的嵌入，在过去的几年里，一种称为基于transformer模型的神经网络架构在语言模型的建构中占据了主导地位。

（二）大型语言模型为何如此有用？

自2017年以来，性能最出众的语言模型经由如下两个阶段创建：首先，使用无监督训练方法创建一个预训练模型。这是训练中最耗费资源的部分，也因此非常昂贵。除非必要（例如为了在给定的语言中获得更好的结果），否则没有人真的想重复这个过程。然而，对于大多数模型而言，预训练阶段并不能直接用于现实生活中的自然语言处理（例如，它可以很好地推测屏蔽词，但这并不具有什么实际用途）。这就是为什么在预训练之后还需要一个单独的微调（fine-tuning）阶段。微调所需的资源要少得多，一般只需几百个示例就足够了。不过，通常情况下，不同的任务需要不同的微调，如文本的多标签分类、提取式问答或文本生成。

自2017年以来，这些预训练模型在许多基准测试中超过了最先进的技术成果，并且也超过了可能是为了完成一项任务从头开始训练的其他模型（例如称为功能化的神经网络架构）。这些预训练模型展示了在大型语料库上训练的大型通用语言模型的能力，同时也清晰地表明，训练数据越大，结果就越好，模型的性能就越强。此外，这些预训练模型也清楚地表明，它们不仅可以用来检索语言知识，还可以检索常识和世界知识。

不到两年时间，又发生了另一场革命性的变革。其中一些大型语言模型的功能变得更加全面，它们无需进一步微调即可在基准测试中取得令人印象深刻的结果。GpT-3在发布之初就非常特别，它能够在没有进行微调的情况下适应许多（“下游”）任务，并且当提供一些上下文的示例时，GpT-3能够推广到未预习的情况，无需进一步微调。

虽然微调仍能提高模型的性能，但这些模型只需极少微调或根本无需微调，就能在大量领域取得优异的结果。现在，只需提供十几个甚至更少的示例（在少样本学习中），就足以取代在数百个示例中进行相对耗费资源的微调。更巧妙的是，不同的任务可以通过使用不同的人工设计（和人工可读）的提示来实现。例如，可以使用如下简单的提示进行分类：“这些选项中哪一个最能描述以下文档：A/B/C”，而将文本从第一人称转换为第三人称，只需发出“将此文本从第一人称转换为第三人称（女性）”的简单指令即可。令人惊讶的是，这些提示可以让语言模型执行如此复杂的任务，例如将代码翻译成人类语言或反过来翻译，或者在人类语言之间进行翻译。

尽管专家们早在2020年就已经预见到这场革命（程序员则是在2021年），但直到2022年底，ChatGPT的出现才使公众意识到这一点。这种方法仅适用于基于transformer的最大通用模型，这些模型依赖于指令、补全、演示这些提示。为了能够适当地遵循指令并避免有害的反应，即使是这些通用语言模型也需做进一步研究和微调。

在谈及OpenAI产品及其应用程序接口（application programming interfaces，API）的使用之前，我们必须强调，这些功能并非OpenAI所独有。尽管在撰写本文时，OpenAI在技术上明显领先于其他公司，是唯一可以使用多种非英语语言的商业模型，并且在营销方面也无疑处于领先地位。

本文并非关于哪种大型语言模型在自然语言处理任务中表现更好的技术论文，也不应理解为我们讨论的那些模型类型（例如自回归模型、单向语言模型，或那些使用基于提示的方法的模型）本质上优于其他模型。我们只是想提供一些大型语言模型在法律领域应用的具体案例，这些案例要么已经在实践中发挥作用，要么至少在理论上可行。在本文中，我们有兴趣探索相对较容易为更大用户群体实施的大型语言模型，这一视角是我们研究的重点。

（三）什么是GPT？

自2018年以来，OpenAI发布了多个新版本的自回归型语言模型，称为GPT（Generative Pre-trained Transformer，生成式预训练转换器），所有这些版本都是在越来越大的文本（语料库）上进行训练，并伴随着一些架构上的变化。作为“传播错误信息”的一种可能方式而引起关注的第一个版本是GPT-2，但随后的每个新版本都伴随着越来越多的媒体报道和热议。

在GPT-3模型的帮助下，可以通过前文提到的文本任务定义（提示）来运行各种标注、文本生成、文本补全、摘要、翻译和一般对话任务，但这只能通过应用程序编程接口（APIs）来完成，因此，世界上大多数人根本没有注意到这一点（或并未关注到OpenAI工作室之外具有类似功能的任何其他模型）。2022年11月28日，OpenAI推出GPT-3.5版，进一步提升了GPT模型的性能和可用性。

两天后，ChatGPT也被推出，主要作为用户界面，供消费者访问经过微调的GPT-3.5模型。这一面向语言模型的“消费者前端”的发布极大地推动了媒体的报道，并对聊天机器人的功能进行了微调。为了实现GPT-3.5令人印象深刻的性能，在强化学习方法中提供相当数量的人类反馈，以使答案（对话补全）尽可能接近人类的预期。

最新一代模型GPT-4于2023年3月14日问世，与之前的GPT-3.5相比有了很大改进。

最初，自然语言处理中的聊天功能仅被作为一个特殊领域，通过在线回答简单问题或询问经常需要澄清的问题（例如，在向人工操作员提交票据或进行预订之前），来实现令人信服的对话，以降低昂贵的呼叫中心或客户服务支持热线的成本。通过将对话与最可能的意图相匹配、进行对话，并从先前的陈述中提取相关信息，问答功能得以实现。不过，随着ChatGPT功能的完善，聊天功能显然也可以作为一个出色的界面，用于处理大型语言模型所能完成的各种不同任务，而且只要它保持可靠性，人类用户就更喜欢这种方法。

ChatGPT是一个操作对终端用户不透明的系统。用户提供的输入信息可用于模型的进一步训练，语言模型（当前为GPT-3.5和GPT-4)会针对聊天讨论进行微调，并提供用户界面供聊天机器人使用。

尽管ChatGPT使用了非常强大的模型，但需要注意的是，除了搜集或获得更简单的不同虚假结果以代替网络搜索（由于“搜索引擎优化”，他们被虚假结果所诅咒），ChatGPT并不适合专业使用。ChatGPT是一款消费类产品，商业用户必须依赖OpenAI提供的应用程序编程接口。该编程接口采用与ChatGPT相同的模型，但存在一些关键区别：（1）通过这些API提供的数据并不适用于训练（正如OpenAI在使用条款中所述）；（2）需要根据提交和接收的文本长度支付费用。如今，最大的语言模型能够生成与人为生成的文本难分伯仲的高质量文本。根据所提供的样本，这些模型可以对某些样本文本（无论是合同条款还是法律规定）进行语言上正确且复杂的转换。但这并不意味着，这些模型的使用没有基本的应用限制，例如GPT模型的发布者通过网页说明了这些限制，而且这些限制同样适用于ChatGPT。

从法律角度将这些缺陷转化为实际问题，从而得出影响社会各个层面的结论，并非易事。只有通过对个别应用程序进行广泛的摸底和实验，才有可能做到这一点。然而，这种实验和研究是必不可少的，因为对未来专业人员的培训必须建立在这些被揭示和抽象出来的局限性的基础之上，法律工作的任务也必须适应这些特点。

关键是要明白，除了GPT之外，还有其他完全开放且可下载的大型语言模型，它们在许多方面与GPT几乎同样出色。还有一些语言模型在某些任务中的表现甚至比GPT更好，至少在英语方面是如此。由于当前的设置和限制（例如，GPT无法下载，只能通过提供的API使用），使用GPT根本无法执行某些基本的语言任务。

尽管如此，只需要对提示符进行人类可读的改变并简单地提供指令，基于提示符、少样本学习的大型语言模型就能执行各种自然语言处理，这不仅可以改变法律行业的经济状况和我们执行这些任务的方式，而且从长远来看，还可能引起法律本身的改变（以及其他大多数不以物理元素为主导的行业）。一些知名大学的作者甚至称GPT模型为人工通用智能（artificial general intelligence，AGI）某些能力的早期体现。

因此，即使GPT-4不是“强人工智能”，即使它永远无法结束关于如何实现人工通用智能（以及如何定义人类智能和人性，或如何区分我们与其他类型智能的角色）的无休止争论，但它清楚地表明，在我们复杂的语言能力（包括法律思维）背后，存在着出乎意料的简单机制。也许，这些活动中可以（而且应该）实现自动化的部分比我们目前所能接受的要多得多。

二、大型语言模型在法律领域的实际实用

该部分的目的是介绍大型语言模型（LLMs）在法律领域中的最重要用途，在这里大型语言模型（LLMs）指的是至少与GPT-3同样先进的大型语言模型。在某些部分，更具体的示例既可作为例证，也可作为支持我们主张的佐证。在这些例子中，我们可能会提到GPT-3.5或GPT-4（即使我们只是笼统地使用“GPT”）的功能。下文的列举还远远不够完整。此外，我们还注意到，迄今为止，关于GPT的操作和合法使用，只有博客文章和非科学性的分析，尚无系统的、科学的调查报告发表，因此，我们不得不以批判性的态度对待所引用的资料来源。

（一）面向公众的文本检索和法律信息

最早实现计算机化的法律活动是文本检索。使用较简单的工具（如全文搜索引擎，或在其他面向内容的标记和索引的帮助下）对大量文本（如庞大的法律案例数据库）进行检索，早在20世纪50年代就已存在。然而，直到语义搜索出现后，用于法律用途的文本检索才变得真正有效。语义搜索是一个统称，指的是除纯文本外，还使用搜索者的意图或文本、图像、其他数字文件来源的深层关系表示来查找和输出结果的方法。机器可以识别更深层次的联系（例如，通过识别上文所述的上下文或识别图像元素），也可以通过人为努力（例如，通过贴标签）事先生成这些联系。高级语义搜索引擎的最佳范例就是谷歌本身，它试图根据各种因素（包括搜索者的地理位置和搜索历史）来推测搜索者的意图。它还在数百万个参数的帮助下确定了“更深层次的含义”，包括有多少其他页面指向给定的网页或文本。

大型语言模型（LLMs）同样可以在法律文本的搜索方面带来真正的突破。然而，法律文本的搜索和检索并不像简单地提出一个自然语言问题，或者向大型语言模型输入所有法律文本，期望其“记住”这些文本，然后再提出问题那么容易（起码目前还不是）。大型语言模型可以帮助工具更好地依赖文本语料库中特定词语的上下文信息进行筛选（情景化嵌入），并将人类提出的问题更准确地转化为术语，从而得到更精确的搜索结果。

虽然大型语言模型可以回答经过预训练的问题，而且预训练中包含了数量惊人的法律文本，但这种方法在法律上不太实用。首先，当前GPT模型的预训练是在2021年9月之前的数据上进行的，并没有进行定期更新，既没有法律条文更新，也没有法庭案例更新。其次，在法律工作中，尽可能广泛地获取相关公开文件（包括地方法规和法院案例）往往至关重要，而审查合同等非公开文件也是法律工作的重要组成部分。

这些庞大的法律文本不能简单地输入模型中，因为大型语言模型输入文本的最大长度（称为上下文长度）相当有限。例如，对于BERT而言，最大输入长度仅为512个标记，即使是最新的GPT-4,最大输入长度也只有32768个标记。这就是为什么即使是大型语言模型，也必须使用分阶段的信息检索：第一步使用检索方法，第二步对可能的答案集进行排序，然后将其原封不动地呈现给用户，或者通过聊天完成功能回答输入的和检索到的文档片段中的问题。

为第一步提供更好的基于神经网络的解决方案并非易事，这也是众多研究项目的主题。不过，目前已经存在一些在某种程度上可行的解决方案，它们依赖于大型语言模型的功能。作为统计模型，所有语言模型都必须使用文本的数字表示。我们在第二节第一部分介绍了嵌入方法相对于字符表示方法的优势。如前所述，大型语言模型使用“情景化的密集向量嵌入”（contextualised dense vector embeddings）。这意味着，标准的、基于术语的信息检索方法（如TF-IDF）依赖于特定词语在文本（或语料库中的文档）中出现的频率，并根据有关问题的关键词中的频率检索信息，而神经检索方法则依赖于对问题（查询）和待检索文档进行基于神经网络的转换。这些学习到的转换被称为嵌入（embeddings），它们能够捕捉词与词之间的语义相似性。像大型语言模型所使用的“情景化”嵌入还能捕捉单词的语境含义。这使得无论是在问题（信息检索查询）中还是在要搜索的文档中，都能对单词和句子有更丰富的理解。

因此，即使是在信息检索的第一阶段，大型语言模型也能提供帮助，它可以将文档、文档部分（甚至只是一些自动生成的大型文档摘要）转换为与情景相关的密集向量嵌入，并将其存储到快速数据库中。当以自然语言查询的方式提出搜索的问题时，大型语言模型可用于将查询转换为嵌入，并可在向量数据库中高效搜索最接近、最相似的嵌入，这也意味着要找到与提出的问题在语义上最接近的文档（部分或摘要）。

第二阶段可用于对多个“可能相关”的文档部分进行审查、排序或评分，且仅仅检索最相关的部分，或者将检索到的简短文档部分和查询一起作为提示（输入）提供给大型语言模型。后一种版本既可用于直接回答以自然语言提问的问题，也可用于从给定的文件部分（例如终止日期）中提取信息的相关部分。

虽然这种解决方案甚至可以集成到ChatGPT中，但从司法公正的角度来看，更重要的一点是，它可以改善向专业人士和非专业人士提供法律信息的方式。

依托法律文本及其语境中的表述，大型语言模型理论上可以回答非法律人士以非法律语言提出的问题，并以非法律语言表述答案。此外，它还能准确回答所提出的问题，并将法律信息重新表述为实际步骤，而不是简单地重复从法律资料中提取的文本。这些模型可以连续运行（24小时/7天），几乎可以立即生成所有这些信息，成本极低，而且无需与人类进行任何必要的社交互动。不过，该系统也存在一定的局限性和定制需求，我们将在下文讨论这些问题。

（二）文本生成和文件组装

另一种应用形式是文本生成，更具体地说，是文件组装，这种形式很早就实现了计算机化，并为法律专业人员所使用。文件汇编系统通常由两个不同的模块组成：一个模块专注于模板的编写（定义相关的文本部分、它们之间的关系、所包含的信息来源，并定义文档创建过程的业务逻辑）。另一个模块是访谈模块，终端用户在此输入与正在创建的文档实例相关的所有必要信息。系统根据用户的指示填写变量、组合文本元素，并编写出相对准确的文档。

由于GPT是专门为生成文本而创建的，所以ChatGPT可以写出乍看之下几乎完美的法律文件也就不足为奇了。

由于GPT是专门为生成文本而创建的，因此，ChatGPT能写出乍一看几乎完美的法律文件并不奇怪，正如杰克·谢佩德（Jack shepherd）在他关于ChatGPT的博客中所指出的那样。与此同时，考虑到大型语言模型对法律的理解与普通人并不相同，它们只是把一个个统计学上合适的单词放在一起，因此，这些文件中包含一些相当原始的错误也是正常的。正如谢佩德所指出的那样，由于它不理解上下文，因此在提供某些结果之前，它很少会问一些澄清性的问题。例如，它从不询问适用的法律，因此有时生成的句子整体上毫无意义。他的结论是，“至少目前，他使用的那个版本的ChatGPT的用例与其说是起草合同（drafting contracts），不如说是制作合同初稿（producing first drafts of contracts）”。

这篇博客文章讨论了在非专业用途的聊天工具上使用GPT-3.5版本的问题。那么，在文本生成和文件组装方面，法律专业人士如何充分利用大型语言模型呢？

与文本检索类似，作为更复杂系统的一部分，大型语言模型也可以采用多阶段方法。如果我们只关注合同等大型文档的文本生成，一种可能的方法是定义和设计三个不同的步骤。

文件组装解决方案的核心部分将是一个已获批准的条款库，其运作方式类似于上述文本检索的第一阶段“文本库”。该条款库将由可在尽可能多的情况下重复使用的通用文本条款组成，同时要满足：

1.仍然保留对出现在条款中的实体（包括当事人等主体或财产、动产、权利等客体）特定角色的清晰引用，并且；

2.存储与给定条款相关的元数据（例如，可使用给定条款的准据法或司法管辖区、该条款对某些合同方的惠益程度和方式，或任何其他与特定背景和纳入给定文件相关的信息）。

在这里，大型语言模型的任务仅仅是促进基于内容（用嵌入表示）的搜索，但这并不意味着大型语言模型是完成这项任务的最佳工具，在实际应用中，已有的合同自动化工具（并非从一开始就考虑建立大型语言模型）可能具有更为精细的设计来推进这一目标。

在训练和个性化大型语言模型的过程中，最具挑战性的方面不是创建条款库，而是定义“目录”。“目录创建者”这一步首先要询问用户（称为“受访者”）有关合同的具体需求，然后根据这些需求确定哪些条款应包含在文档中。

目前，合同在性质上非常不同：语言的标准化更多的是例外，而不是规则，即使在给定的管辖范围和语言内也是如此。可能的需要集越广泛，这样的文件汇编系统就越有可能使用不恰当或危险的条款，汇编之后的法律审查程序就会更加彻底。

使整个法律体系拥有一套精致而平衡的文件汇编系统似乎是不现实的。另外，根据消费者的直接指示来界定消费者的实际问题，可能也不适合使用大型语言模型（参见第四部分）。

然而，为特定公司（甚至是大型公司）或特定律师事务所或公证处创建一个规模可控的“目录创建器”是现实可行的，因为这些公司或公证处为明确界定的标准化客户提供服务。与面向消费者的解决方案相比，这些文件汇编解决方案更适合与专业人士对接。

考虑到如此有限的范围，“目录创建者”所需的微调在理论上可能会简单得多：只需几百个由“明示要求”（stated requirements）和“必要标题”（necessary headings）组成的文本对。从用户的角度来看，应当有一个单独的用户界面，将最重要的要求限制在最常见的选择树中，并为定制的个性化指令留出一些额外空间。这个界面将负责创建“明示要求”，作为大型语言模型目录创建者的输入。当然，可能的常用选项集和“必要标题”最好从特定公司的现有合同语料库中创建，这将在下文中讨论。

最后一步是最容易完成的，即根据第二阶段输出的“必要标题”，对从条款库中检索到的各个独立条款进行必要的语言和文本调整（例如，更改词性、时态、连接词、当事方数量、术语）。这些任务对于大型语言模型来说微不足道，但对于非基于大型语言模型的文件汇编系统来说，尤其是对于非英语使用者来说，这是非常困难的。

除了文件汇编这一主题外，大型语言模型（尤其是GPT）还可以多种方式用于文本创作和写作辅助。它们是拼写检查、文体建议以及验证引文格式的绝佳工具。

对于现有的这类插件和word附加组件的商业供应商来说，在未来几年内可能很难继续保持其相关性。原因在于这些大型语言模型的用途非常广泛，只需提供不同的提示和示例就能改变其功能，因此只需进行少量编程，一个基于大型语言模型的插件就能涵盖以前只有多个不同插件才能提供的功能。此外，考虑到大多数法律专业人员都使用标准的商业办公应用程序作为日常工具，这些应用程序的供应商很可能会为广大专业人员提供部分或大部分插件功能，以换取订阅费，从而取代现有插件供应商的市场。

（三）法律分析：分类、文本提取和语言推理任务（电子发现、电子尽职调查、法律分析）

与自然语言处理（NLP）的语言理解分支相关的任务构成了要讨论的第三个主要领域。该领域包括对文本片段的分类（从标记级别到多个文档级别）、从文本中提取信息（如日期、实体）以及通过“自然语言推理”确定两段文本之间的关系（例如，一个句子是支持还是反驳另一个句子，这些论点是否与同一法律要点相关，这个结论与这个陈述之间是否存在矛盾等）。让我们对这些子领域逐一进行详细了解。

自动分类是自然语言处理的一个古老分支，其目的是使机器能够在大量文本中进行排序，并根据特定规则将文本的部分归入预定义的类别（即给文本片段贴上不同类别的标签）。这些规则可以非常简单（例如，某些文本中出现的单词或词组），也可以较为复杂，例如文本的语义内容（例如，这是一份薪资超过500000欧元的雇佣合同，是否已经失效？）。许多法律信息技术（IT）系统都采用了这种分类方法，我们在此重点介绍其中的两种，即所谓的电子发现系统和电子尽职调查系统。

电子发现（在某些司法管辖区也称为电子披露）系统是指在诉讼、审计、调查等法律程序中查找与之相关的大量文件，所查找的信息以电子格式存在。电子发现的重要性因司法管辖区而异，取决于法院下令披露的条件和可能性，以及不完全遵守要求可能产生的后果。在美国的司法体系中，市场对电子发现中计算机化支持的需求十分强烈，使得这一领域发展成为一个重要的产品细分市场。电子发现的工作原理是利用技术帮助查找案件的相关信息。它是一个根据法律程序中的发现请求保存、收集和分析电子数据的过程。这在某种程度上是信息检索，但也是一个需要借助自然语言理解（主要是通过分类）来解决的问题。

文件分类的另一个典型目的是法律尽职调查，其目的是在大量法律文件中发现某些风险迹象，或找到必须由律师或自动化系统进行更详细审查的特定类型文件。尽职调查活动通常与某些事件有关，如准备出售或收购企业（确定收购的风险和稳健性，或确定收购价格），或作为更广泛审计活动的一部分（发现违规行为等）。例如，一项典型的任务是在成千上万份合同中寻找包含不同于寻常的责任或终止规则的合同（聚类分析或异常值分析，均为无监督分类），或寻找那些必须进行强制仲裁的合同。

如上所述，既可以根据无监督机器学习方法（聚类分析）进行分类，也可以根据非常具体的标准进行分类，该标准通常基于有监督的学习。在这方面，大型语言模型可以简化分类的成本，并使用户能够发现对文档条款进行分类的新方法，而无需为每个不同的分类任务分别进行微调。

当然，这取决于分类的类型和将分类的内容。人们必须意识到上述标记限制，但有了GPT-4，即使是较短的合同（如雇佣合同）也可以连同说明一起输入单个提示中。不过，在大多数情况下，输入完整的合同并不是最好的方法，因此，必须先提取相关条款。如果合同的相关部分仍然过大，可以将其拆分成多个部分，然后逐个发送给大型语言模型。然而，在这种情况下，我们必须小心谨慎，不要因为拆分文本而丢失了一些与分类任务相关的上下文（例如合同中终止权之间的交叉引用）。另一种有效的方法与信息检索部分提到的方法相同（通过嵌入的相似性从数据库中检索合同的相关条款，即文本的表征）。

GPT及其他大型语言模型具有出色的“少样本”和“零样本”学习能力，这使得使用这些大型语言模型成为可能，只需为多个同时进行的分类任务定义一个好的提示，然后将相同的提示逐一输入所有合同的每个独立条款中，逐段进行处理。

除分类外，同样的大型语言模型还可用于从庞大的文档集中提取相关信息，例如查找超过某一阈值的合同。在这项任务中，唯一具有挑战性的部分是对文本进行分割，使计算阈值所需的值最好保留在同一文本段中。

关于分类和信息提取，必须再次强调的是，大型语言模型在这一领域并非万能的或通用的解决方案。正如在合同尽职调查中所明确展示的那样，专门从事尽职调查的工具所带来的价值可能远远超过大型商业化语言模型所带来的更好但更通用的上下文理解能力。针对特定任务的工具依赖于特定的神经网络架构，可能融合了项目和风险管理方面多年的最佳实践，并可能具有内置能力，能够至少在特定语言中识别大量问题条款。根据具体语言和任务以及实施成本的不同，大型语言模型能否提供更好的替代方案存在着不确定性。

尽管语言推理工具在法律领域已经被研究了30多年，但它们在法律实践中尚未得到广泛应用。这些工具可用于揭示辩护状等大型文件中隐藏的论证结构，验证某些主张是否得到法律或披露的证据的支持，原告的新陈述是否与之前的陈述相矛盾等。使用GPT进行此类操作的技术方法与分类和提取的方法完全相同，例如，在同一提示符中输入要相互检验的语句，并提示说明要检验的两个句子之间的关系类型。

推理工具还可惠及其他领域，如合同谈判或立法程序，丰富不同版本之间差异的自动摘要，或协助提供变更的自动解释等。

（四）大型语言模型作为法律领域的推动者——在直接法律业务之外

我们列举了大型语言模型在传统自然语言处理领域的一些新型用途，这些用途都与法律专业人员如何直接处理文本（例如起草或分析文本等）有关。除此以外，我们预计，一些最有趣的变化将来自那些能够进一步扩展人类工作范围或拓展其他工具使用可能性的大型语言模型的用途。我们称之为大型语言模型的“催化剂”用途。

也许最重要的一种用途是训练人类，更具体地说，是训练法律专业人员。与自动驾驶汽车存在的问题类似，大型语言模型在许多关键领域的可靠性可能不足以满足消费者的直接需求，甚至无法辅助法律专业人员的关键工作。即使在这种不太可能的情况下，基于目前大型语言模型的能力，当前一代GPT的对话技能已经能够帮助培训新一代律师，而且成本更低，体验更个性化，深度也远远超过目前法学院和大学使用传统方法所能达到的水平。

在大型语言模型的帮助下，人类的培训和测试材料可以变成更实用、更真实的练习（这是法律用途的一个重要课题），并可以进行大规模推广。这些工具还能让人们同时监督更多的学生，这在目前是不可能实现的。

同时，要做到这一点也需要大量的准备工作。这些准备工作包括对特定类型的大型语言模型的能力进行彻底审查，创建有助于衡量大型语言模型在特定法律领域可靠性的基准（如特定司法管辖区和特定语言的律师在法律研究中的问答能力），检查在哪些领域进行微调可以显著减少幻觉，以及上述方法（如微调或将其与知识库连接）将如何影响总体的可靠性。除了实际尝试和测量结果之外，没有其他方法可以确定大型语言模型是否能够处理（“理解”）法律领域中的复杂、高级概念，包括所谓的多跳式问题回答（multi-hop question-answering）。

只有这样的实验才能告诉我们，在训练中应在哪些领域以及如何使用大型语言模型，哪些领域应由人类进行训练。

另一个催化剂用途可能是促进知识管理系统的运行，使获取个体知识变得更加容易，减少人为干预和监督。虽然当今所有的组织都会从系统地记录与其业务相关的知识和方便地检索这些信息中受益，但只有拥有资金和管理最完善的组织才有能力这样做。这些资金雄厚的大型组织拥有专门的人员（如图书管理员、专业律师、质量专家等），以确保业务流程有据可查并不断更新（如通过现有的质量或信息管理系统）。即使对许多这样的组织来说，知识管理也可能无法涵盖每一个重要的业务方面。知识管理中最困难的部分是将值得记录的相关知识分离出来，以一种可以在原始环境之外重复使用的方式记录这些知识，同时收集有关这些知识的足够元数据，以便日后检索。在这方面，大型语言模型能够帮助人类组织实现其潜能。

催化剂的第三个领域是大型语言模型作为不同IT系统和AI解决方案之间的中间件的可能作用。时至今日，GPT不仅能够充当人类的对话代理，还能充当不同代理（包括其他公司调用的其他GPT）之间的技术接口，前提是它已经预先接受过此类信息的训练，在提示中明确给出了此类信息，或者能够通过第三方API检索此类定义并采取相应行动。当然，从长远来看，只有时间才能证明这些互联的可靠性，但这种方法的优势在于，当所定义的应用程序接口发生某些变化时，它具有更大的灵活性和复原力。

第四个也是最后一个可能的催化剂作用领域，是作为培训其他人工智能解决方案的推动者。正如我们在引言部分已经讨论过的，监督学习方法所需的训练成本往往成为创建此类人工智能模型的障碍。许多可能的人工智能应用或大型语言模型的特定任务微调无法从无监督或基于强化的训练方法中获益。新人工智能模型的设计者可能会受益于现有的大型语言模型的功能：现有的大型语言模型可以帮助人类寻找训练数据，或者在创建、复制、清理或转换这些数据方面提供帮助。这方面最典型的例子是，一个名为斯坦福羊驼（stanfordAlpaca）的大型语言模型虽然规模小得多，但仍能胜任上文第二节第一部分提到的指令跟随功能。他们使用GPT(3.0)API来创建足够的训练数据，以确保这种指令跟随能力，因此能够以不到600美元的总成本完成微调。

三、基于GPT的聊天机器人的经验教训以及大型语言模型的局限性

（一）聊天机器人的演示

为了更好地了解（Chat）GPT在法律环境中的运行情况，我们使用OpenAI API（同时使用ChatGPT背后的对话补全API）进行了一次实验，为一家小型律师事务所构建了一个聊天机器人演示。该演示旨在模拟小型律师事务所的聊天机器人理论上如何在公共场合运行，但也提供了一些可供法律聊天机器人用户普遍借鉴的经验教训。

演示聊天机器人使用的是GPT-3.5模型，主要是出于经济方面的考虑。通过GPT-4回答问题的成本是GPT-3.5的15倍。GPT-3.5的另一个优势是回答问题的速度更快，这是聊天机器人使用的一个重要因素。如果使用GPT-4，回答可能会更为精确，但这样的性能并未进行测量。GPT-4模型用于聊天机器人的另一个主要优势是令牌（大小）限制更长，详情如下。在其他方面，GPT-4的操作方式都是一样的。

在使用OpenAI API（而非ChatGPT界面）时，我们可以非常容易地定制聊天机器人的工作方式、给出的答案类型，以及最重要的、它应当避免给出的答案类型。聊天机器人实际上只不过是：（1）带有律师事务所品牌的聊天机器人模型的前端；（2）通过提供示例和额外的提示说明进行一些定制，这些示例和说明与用户在前端输入的实际问题一起输入API对话补全应用中。

这些示例由一对对问答组成，有的用英语，有的用匈牙利语，涵盖了一些重要的限制，比如如何处理超出律师事务所权限范围的请求（如何将用户重新定向到律师协会的律师搜索功能）。提示指令有两种：系统提示和用户提示，其中系统提示是对聊天机器人应尝试模仿的角色类型的描述，而用户提示则是提交给应用程序接口以获得答案的提示。然而，在GPT-3.5中，两者之间的区分并不十分明显，因此在演示中，用户提示中也包含了一些聊天机器人应该做什么和不应该做什么的说明。

在为律师事务所创建聊天机器人过程中，必须注意适用于此类活动的道义规则，例如避免给出可能被理解为比较性广告的答案，即使只是说某家律师事务所比另一家律师事务所好等。

与道义规则同样重要的是，要在提示中向聊天机器人提供所推销律师事务所的所有相关细节。如果没有这些重要信息，GPT将产生“幻觉”（并且不会在互联网上搜索缺失的信息）。例如，在第一次测试中，我们明确向模型提供了律师事务所的电话号码，但没有提供实际地址。当我们向聊天机器人询问律师事务所的一般联系方式（而不仅仅是电话号码）时，聊天机器人提供了一个非常精确的现有实际地址，唯一的问题是这个地址并不是律师事务所的地址。

然而，前面提到的规模限制也会影响我们对聊天机器人的定制程度。对于GPT-3.5,有一个严格的4096个标记的限制，其中包括“提示”（问题）和“完成”（答案）。此外，提示大小限制还包括所有示例和提示说明，以及聊天机器人用户的实际问题，这些自定义内容越长，答案就必须越短。

因此，即使有更多的自定义功能，即使可以插入更多有关职业道德规则或律所的信息，但在这种解决方案中根本没有足够的空间进行操作。

聊天机器人的前端是双语的，除此之外，聊天机器人还依赖于GPT的多语言功能。GPT的多语言功能似乎依赖于某种内置的翻译机制，既能翻译查询，也能翻译回答，而不是用询问的语言生成原始文本。如果我们用非英语语言要求GPT创作一首押韵的诗歌，这一点就很明显。我们的经验是，在这种情况下，虽然GPT用与问句所用的语言相同的语言给出了诗句，但除非将句子翻译回英语，否则韵脚并不押韵。此外，我们还用匈牙利语向GPT提出了一个关于遗嘱的法律问题，而这个问题只能根据对《匈牙利民法典》的一些肤浅认识来回答（Pflichtteil as a compulsory part——匈牙利法律有这个术语，但英国法律并没有）。虽然GPT回答正确，而且显然对《匈牙利民法典》继承条款有一定了解，但其使用的匈牙利语术语明显是不正确的，只是逐字翻译了英语中的一个非专业术语（如“com-pulsorypart”）。

（二）律师和小型律师事务所可以利用这样的聊天机器人做什么？

律师和律师事务所可以将演示中的聊天机器人用于什么目的？事实上，我们只能用这样的聊天机器人来提供律师事务所的信息，而且要比在普通网站上提供的信息更具娱乐性。此外，我们还可以让这个聊天机器人同时出现在其他渠道上，比如Telegram或Viber聊天机器人等。从本质上讲，这样的聊天机器人只能用于广告和营销。

这可以为律师事务所带来相对优势，至少在大多数其他律师事务所拥有相同工具之前是这样的。额外的娱乐价值来自聊天机器人假装律师的能力，用户可以向聊天机器人询问法律问题，而无需像前几代聊天机器人那样明确定义所有问题和答案。当然，要做到这一点，必须在律师事务所的使用条款中澄清这不是法律建议，不应用于任何实际目的。重要的是要区分这种娱乐价值与律师事务所（而非聊天机器人）实际提供的法律建议。

GPT的第3版及以后的版本不可下载，微软（OpenAI的最大投资者）自2020年9月23日起获得了这些模型的独家许可。无论如何，至少从2021年初开始，所有语言模型都可以通过由OpenAI提供的名为应用编程接口（API）的网络服务访问。目前，普通用户无法在本地使用，所有请求都必须通过OpenAI或Microsoft Azure，并且答案也将来自它们。虽然OpenAI承诺API的应用和结果不会用于训练，但供应商的合同承诺不一定能为所有使用情况提供足够的保证，而且向API传输个人数据本身就可能成为使用这两家供应商的障碍。

OpenAI API使用政策的当前条款明确指出，未经合格人员审查，不得将这些模型用于提供法律服务。这意味着，根据OpenAI的使用政策，该模型不得用于面向消费者的前端。除非有鲁莽的律师事先承担责任，无论聊天机器人对所问的任何法律问题给出怎样的答案，他们都会一概予以批准。这可能符合OpenAI使用政策的要求，但在其他方面显然是不道德的。

至少在目前的状态下，聊天机器人的功能并不适合典型的律师聊天机器人案例。它可能会给用户提供有关联系方式或律所专业领域的错误答案。它也不是与律师预约会面的理想选择。即使GPT擅长解读潜在客户的意图，并能在技术上检查日历上的空闲时段，但目前通过专用应用程序（可与支付服务连接，为预订的时间段赋予权重）来完成这项工作要简单得多，也安全得多。

虽然这个特定的演示聊天机器人只能用于面向客户端的目的，但OpenAI API的处理能力（包括GPT的补全功能）仍然超出了前面所述的这种简单聊天机器人功能。

（三）经验教训、局限性、结论、未来可能议题

在前面的章节中，我们详细列举了大型语言模型在法律领域或律师事务所中的可能用途。如演示所示，这类大型语言模型的优势在于，实施它们并不需要大量资源。大型语言模型有可能成为每个行业灵活的日常工具，如果适当地将其内置到多功能应用程序中，它们可以大大提高组织的能力，简化其IT基础设施，甚至可能节省当前支付给多个供应商和集成商的费用。对于使用大量不同IT产品的法律专业人士来说，这些大型语言模型及其应用程序接口也可以作为减少所需产品数量和整合成本的一种方式。

由于文本生成的内在逻辑，一些人将大型语言模型称为“随机鹦鹉”，专家警告称它们因此无法替代真实的人际沟通。这是任何大型语言模型在法律工作中的第一个理论局限。根据这一观点，人类沟通始终是一种“共同构建的活动”，当我们与他人沟通时，“我们会构建一个关于他们是谁以及我们认为他们与我们有哪些共同点的部分模型，并以此来解释他们的话语”。不过，这在一些法律应用中并不构成问题，因为法律文本（政策、合同）的特点恰恰在于，它们固定了某些规则，而与参与者的身份无关。同样，在从浩如烟海的法律资料中选择和总结适当的文本或从较长的文本中编写摘要时，这一特征也不构成问题。

同时，如果一个外行人向系统请求法律建议，这可能会对操作造成非常严重的限制。这种限制还表现在，大型语言模型只能接触到文本，而无法接触到现实本身，因此，就目前而言，他们无法像法律顾问那样立即进行现实审查。我们认为，（目前）大型语言模型还不具备与专业人员相同的情商，即使大型语言模型有能力从沟通中捕捉到矛盾的迹象，它们也没有接受过根据这些矛盾采取行动的训练。例如，如果从客户的陈述中可以明显看出他隐瞒了某些事实或稍微歪曲了一些事实，有经验的律师可以立即反问他，而聊天机器人却无法做到这一点。

如果需要强调一个特定领域，我们认为，法律专业人士可以进一步提供有益的贡献，那就是需要评估所提供答案在特定领域的准确性。

这可以从为一些主要法律领域创建特定领域的基准（分别在国家和欧盟层面）开始，以便更准确地评估对话补全问答能力与这些领域的相关性。我们必须确定法律应用程序中这些对话补全功能的优缺点，因为没有人能代替我们回答这个问题。

同样，第二部分描述的可能的非聊天机器人的使用案例也应该在实践中发挥作用，但除非在许多国家和司法管辖区、在有法律专业人士的参与下进行大规模的审慎实验，否则无法确定这些使用案例的可靠性。

往期精彩回顾

胥国一赵诗文｜对精神损害赔偿功能的一个反思

赵丹｜国际投资仲裁裁决的司法审查及中国企业应对——以新加坡司法实践为例

池梓源｜国企改制后股份合作制企业性质刑事认定的困境及解决路径

王殷舟｜刑事被害人精神损害赔偿：正当性证成与实现进路

目录｜《上海法学研究》2024总第11卷

雷娜特·肖伯张韬略译｜使用人工智能构成义务侵害？论使用生成式人工智能的注意义务

上海市法学会官网

http://www.sls.org.cn